package com.CrawlData;

import java.util.HashMap;
import java.util.List;

import com.Util.RegexUtil;

public abstract class CrawlListPageBase extends CrawlBase {

	private String pageUrl;// 当前的Url地址

	public CrawlListPageBase(String pageUrl,String charsetName) {
		readPageByGet(pageUrl, null, charsetName);
		this.pageUrl = pageUrl; 
	}
	
	public CrawlListPageBase(String pageUrl,String charsetName,HashMap<String, String> params){
		readPageByGet(pageUrl, params, charsetName);
		this.pageUrl = pageUrl;
	}
	//返回页面中可能的下一跳地址的集合
	public List<String> getPageUrl(){
		return RegexUtil.getArrayList(getPageSourceCode(), getUrlRegexStr(), this.pageUrl, getUrlRegexNum());
	}
	
	
	
	//下一跳URL的正则表达式
	public abstract String getUrlRegexStr();
	//提取信息在正则表达式的位置
	public abstract int getUrlRegexNum();
	
	

}
